Johannes Filter ist freiberuflicher Softwareentwickler und Aktivist für Informationsfreiheit, Civic Tech und Open Data. In seiner Masterarbeit hat er sich mit der automatisierten Klassifikation von Kommentaren beschäftigt und im Rahmen des Prototype Fund analysierte er anhand von 13 Millionen Online-Kommentaren, wie sich Sprache in Kommentarspalten verändert hat.
Künstliche Intelligenz soll Facebooks Moderationsprobleme lösen, verkündete Mark Zuckerberg schon im Jahr 2018. Eine Untersuchung von AlgorithmWatch zeigt nun, dass automatisierte Entscheidungsalgorithmen derzeit noch große Probleme haben.
AlgorithmWatch hat die Perspective-API begutachtet, einen kostenlosen Service von Google, um automatisiert Hasskommentare zu entdecken. Ein Kommentar bekommt dabei einen Toxicity-Wert zwischen 1 und 100 zugewiesen. Je höher der Wert, desto toxischer ist der Kommentar potenziell. In der Analyse kam heraus, das Kommentare mit dem Begriff „schwarze Frau“ als auch „schwarzer Mann“ einen höheren Score als mit „deutsche Frau“ und „deutscher Mann“ hatten. Um zu verstehen, woran das liegt, muss man sich die Grundlagen automatisierter Moderation anschauen.
Computer versuchen, Entscheidungen von Menschen zu imitieren
Unter dem Begriff „Künstliche Intelligenz“ versteht man heutzutage meistens maschinelles Lernen, Machine Learning. Bei diesen lernt ein Computerprogramm – die Maschine – von Entscheidungen aus alten Daten, Entscheidungen für neue Daten zu fällen. Dafür wird ein Machine-Learning-Modell trainiert, eine Sammlung von Einstellungen für ein spezifisches Programm.
Für ein solches Training benötigt man zunächst die sogenannte „Ground Truth“, also die Wahrheit über einen Sachverhalt. Im Bereich von Hasskommentaren ist dies beispielsweise eine Liste von Kommentare und eine Wertung, ob es sich um einen Hasskommentar handelt oder nicht. Diese Kommentaren werden händisch annotiert und das Machine-Learning-Modell wird mit diesen Daten gefüttert. Die Maschine versucht anschließend, die Entscheidungen der Menschen zu imitieren.
Damit die Maschine mit dem Text umgehen kann, werden mittels mathematischer Verfahren aus der Computerlinguistik aus Wörtern Zahlen. Unter der Annahme, dass Wörter mit ähnlicher Bedeutungen in ähnlichen Kontexten vorkommen, verstehen Computer Sprache. Detailliert habe ich das in meinem Online-Projekt kommentare.vis.one erklärt.
Aus Sicht der Maschinen sind Minderheiten mit Hass assoziiert
Wo sich Hass gegen Minderheiten richten, tauchen in Hasskommentaren oft Wörter auf, die diese Minderheiten beschreiben. Daher sind etwa Begriffe wie „schwarze Frau“ in der Welt der Maschinen negativ assoziiert. Wenn jetzt „schwarze Frau“ in einem Kommentar auftaucht, dann ist der Toxicity-Score höher als für „deutsche Frau“ – egal, ob der Kommentar tatsächlich toxisch ist oder nicht.
Aus Sicht der Maschinen sind Minderheiten mit Hass assoziiert. Es liegt also in der Natur der Sache, dass Machine-Learing-basierte Filtersystem rassistische Muster reproduzieren.
Es gibt bereits Bemühungen, diesen Bias – den Fehler – zu entfernen. Nach dem Training wird das Modell manuell so geändert, das Unterschiede mit Bezug zu Geschlecht oder Ethnizität verschwinden. Doch ein Paper mit dem Namen „Lipstick on a Pig“ zeigte am Beispiel vom Gender-Bias, dass es nicht funktioniert. Ein Fazit der Autorin: Ungleichbehandlungen sind viel zu systematisch in der echten Welt, und damit auch in Texten, zu finden. Eine faire Repräsentation durch Machine Learning bleibt schwierig.
Es ist unklar, ob eine neue technische Errungenschaft jemals für faire automatisierte Filter sorgen wird. Solange können wir dafür sorgen, dass es weniger Rassismus im echten Leben gibt. Denn: Künstliche Intelligenz wird uns (wahrscheinlich) nicht retten.
